我们研究了优化高度光滑的凸起功能的复杂性。对于正面整数$ P $,我们想找到$ \ epsilon $ - 占凸函数$ f $的批量最低,假设$ p $ th衍生物的oracle$ f $是lipschitz。最近,三个独立的研究小组(江等,2019年,Plmr 2019; Gasnikov等,Plmr 2019; Bumr 2019,Plmr 2019)开发了一种用$ \ tilde {o}解决这个问题的新算法(1 / \epsilon ^ {\ frac {2} {3p + 1}})$ Oracle呼叫常量$ p $。已知这是用于确定性算法的最佳(最多为日志因子),但是已知的随机算法的下限与此绑定不匹配。我们证明了一个与此绑定(最多为日志因子)匹配的新绑定,并且不仅适用于随机算法,而且不仅适用于量子算法。
translated by 谷歌翻译
A Complete Computer vision system can be divided into two main categories: detection and classification. The Lane detection algorithm is a part of the computer vision detection category and has been applied in autonomous driving and smart vehicle systems. The lane detection system is responsible for lane marking in a complex road environment. At the same time, lane detection plays a crucial role in the warning system for a car when departs the lane. The implemented lane detection algorithm is mainly divided into two steps: edge detection and line detection. In this paper, we will compare the state-of-the-art implementation performance obtained with both FPGA and GPU to evaluate the trade-off for latency, power consumption, and utilization. Our comparison emphasises the advantages and disadvantages of the two systems.
translated by 谷歌翻译
Neuromorphic computing using biologically inspired Spiking Neural Networks (SNNs) is a promising solution to meet Energy-Throughput (ET) efficiency needed for edge computing devices. Neuromorphic hardware architectures that emulate SNNs in analog/mixed-signal domains have been proposed to achieve order-of-magnitude higher energy efficiency than all-digital architectures, however at the expense of limited scalability, susceptibility to noise, complex verification, and poor flexibility. On the other hand, state-of-the-art digital neuromorphic architectures focus either on achieving high energy efficiency (Joules/synaptic operation (SOP)) or throughput efficiency (SOPs/second/area), resulting in poor ET efficiency. In this work, we present THOR, an all-digital neuromorphic processor with a novel memory hierarchy and neuron update architecture that addresses both energy consumption and throughput bottlenecks. We implemented THOR in 28nm FDSOI CMOS technology and our post-layout results demonstrate an ET efficiency of 7.29G $\text{TSOP}^2/\text{mm}^2\text{Js}$ at 0.9V, 400 MHz, which represents a 3X improvement over state-of-the-art digital neuromorphic processors.
translated by 谷歌翻译
Micron-scale robots (ubots) have recently shown great promise for emerging medical applications, and accurate control of ubots is a critical next step to deploying them in real systems. In this work, we develop the idea of a nonlinear mismatch controller to compensate for the mismatch between the disturbed unicycle model of a rolling ubot and trajectory data collected during an experiment. We exploit the differential flatness property of the rolling ubot model to generate a mapping from the desired state trajectory to nominal control actions. Due to model mismatch and parameter estimation error, the nominal control actions will not exactly reproduce the desired state trajectory. We employ a Gaussian Process (GP) to learn the model mismatch as a function of the desired control actions, and correct the nominal control actions using a least-squares optimization. We demonstrate the performance of our online learning algorithm in simulation, where we show that the model mismatch makes some desired states unreachable. Finally, we validate our approach in an experiment and show that the error metrics are reduced by up to 40%.
translated by 谷歌翻译
最近在各种语音域应用中提出了卷积增强的变压器(构象异构体),例如自动语音识别(ASR)和语音分离,因为它们可以捕获本地和全球依赖性。在本文中,我们提出了一个基于构型的度量生成对抗网络(CMGAN),以在时间频率(TF)域中进行语音增强(SE)。发电机使用两阶段构象体块编码大小和复杂的频谱图信息,以模拟时间和频率依赖性。然后,解码器将估计分解为尺寸掩模的解码器分支,以滤除不需要的扭曲和复杂的细化分支,以进一步改善幅度估计并隐式增强相信息。此外,我们还包括一个度量歧视器来通过优化相应的评估评分来减轻度量不匹配。客观和主观评估表明,与三个语音增强任务(DeNoising,dereverberation和Super-Losity)中的最新方法相比,CMGAN能够表现出卓越的性能。例如,对语音库+需求数据集的定量降解分析表明,CMGAN的表现优于以前的差距,即PESQ为3.41,SSNR为11.10 dB。
translated by 谷歌翻译
在过去的十年中,在线教育在为全球学生提供负担得起的高质量教育方面的重要性越来越重要。随着越来越多的学生改用在线学习,这在全球大流行期间得到了进一步放大。大多数在线教育任务,例如课程建议,锻炼建议或自动化评估,都取决于跟踪学生的知识进步。这被称为文献中的\ emph {知识跟踪}问题。解决此问题需要收集学生评估数据,以反映他们的知识演变。在本文中,我们提出了一个新的知识跟踪数据集,名为“知识跟踪数据库”练习(DBE-KT22),该练习是在澳大利亚澳大利亚国立大学教授的课程中从在线学生锻炼系统中收集的。我们讨论了DBE-KT22数据集的特征,并将其与知识追踪文献中的现有数据集进行对比。我们的数据集可通过澳大利亚数据存档平台公开访问。
translated by 谷歌翻译
自从神经辐射场(NERF)出现以来,神经渲染引起了极大的关注,并且已经大大推动了新型视图合成的最新作品。最近的重点是在模型上过度适合单个场景,以及学习模型的一些尝试,这些模型可以综合看不见的场景的新型视图,主要包括将深度卷积特征与类似NERF的模型组合在一起。我们提出了一个不同的范式,不需要深层特征,也不需要类似NERF的体积渲染。我们的方法能够直接从现场采样的贴片集中直接预测目标射线的颜色。我们首先利用表现几何形状沿着每个参考视图的异性线提取斑块。每个贴片线性地投影到1D特征向量和一系列变压器处理集合中。对于位置编码,我们像在光场表示中一样对射线进行参数化,并且至关重要的差异是坐标是相对于目标射线的规范化的,这使我们的方法与参考帧无关并改善了概括。我们表明,即使接受比先前的工作要少得多的数据训练,我们的方法在新颖的综合综合方面都超出了最新的视图综合。
translated by 谷歌翻译
在本文中,提出了一种基于进发神经网络的方法来减少单眼视觉探针算法漂移的方法。视觉轨道图算法计算连续摄像机框架之间车辆的增量运动,然后集成这些增量以确定车辆的姿势。提出的神经网络减少了车辆的姿势估计中的误差,这是由于特征检测和匹配,摄像机固有参数等不准确而导致的。这些不准确性传播到对车辆的运动估计,从而导致大量估计误差。降低神经网络的漂移基于连续的摄像头框架中特征的运动来识别此类错误,从而导致更准确的增量运动估计值。使用KITTI数据集对拟议的漂移减少神经网络进行了训练和验证,结果表明,所提出的方法在减少增量方向估计中的误差方面的疗效,从而减少了姿势估计中的总体错误。
translated by 谷歌翻译
COVID-19导致与不同的SARS-COV-2变体相关的多种感染波。研究报告了这些变体对患者呼吸健康的影响不同。我们探索从COVID-19受试者收集的声学信号是否显示出可区分的声学模式,这表明有可能预测潜在的病毒变体。我们分析了从三个主题库中收集的COSWARA数据集,即i)健康,ii)在三角洲变体占主导地位期间记录的covid-199受试者,以及III)来自Omicron Expear中记录的COVID-19的数据。我们的发现表明,咳嗽,呼吸和语音等多种声音类别表明,在将COVID-19与Omicron和Delta变体进行比较时,声音特征差异很大。在曲线下,分类区域大大超过了被Omicron感染的受试者与三角洲感染者的机会。使用来自多个声音类别的得分融合,我们在95%的特异性下获得了89%和52.4%的敏感性的区域。此外,使用分层三类方法将声学数据分类为健康和共同-19阳性,并将进一步的COVID受试者分为三角洲和Omicron变体,从而提供了高水平的3类分类精度。这些结果提出了设计基于声音的COVID-19诊断方法的新方法。
translated by 谷歌翻译
COVID-19大流行已经加快了关于替代,快速有效的Covid-19诊断方法设计的研究。在本文中,我们描述了Coswara工具,这是一个网站应用程序,旨在通过分析呼吸声样本和健康症状来启用COVID-19检测。使用此服务的用户可以使用连接到Internet的任何设备登录到网站,提供当前的健康症状信息,并记录很少有对应于呼吸,咳嗽和语音的声音。在分析此信息上的一分钟内,网站工具将向用户输出COVID-19概率分数。随着COVID-19的大流行继续要求进行大规模和可扩展的人口水平测试,我们假设所提出的工具为此提供了潜在的解决方案。
translated by 谷歌翻译